經過上一篇物件偵測(1)的介紹,我們終於可以正式進入更完整的影像偵測小世界了!
之前說過物件偵測有的兩大主要的步驟:影像分類(Image classification)和物件定位(Object Localization),又有兩大類:One stage 和 Two stage。
早期演算法以 Two stage
為大宗,代表演算法有 R-CNN、 Fast-RCNN 和 Faster RCNN。
這篇文章會先介紹 R-CNN 和 Fast-RCNN!
SVM:一種二元分類模型。在二維中,可以將其視為一條線,並假設我們的所有輸入點都可以被這條線完全分開。
softmax: 輸出的每個值表示這個樣本屬於每個類的概率,且輸出的向量值範圍為 0 到 1。
ROI Pooling:就是對每個 Region proposal 做 pooling,得到的 ROI 都會有自己的座標和大小。
那為甚麼這裡要使用 ROI Pooling 呢?
原因是 ROI Pooling Layer 之後的 Fully Connected Layer 的輸入是固定尺寸,所以需要通過 ROI Pooling 將所有的 ROI 變成固定大小。
未完待續